ภาพรวมและภูมิทัศน์การพัฒนาสถาปัตยกรรม

เราเปลี่ยนผ่านจากความสำเร็จเบื้องต้นของ AlexNet สู่ยุคของเครือข่ายประสาทเทียมแบบลึกมาก เครือข่ายประสาทเชิงพีชคณิต (CNNs). การเปลี่ยนแปลงนี้จำเป็นต้องมีนวัตกรรมทางสถาปัตยกรรมอย่างลึกซึ้งเพื่อจัดการกับความลึกสุดขีดในขณะที่ยังคงเสถียรภาพในการฝึกอบรม เราจะวิเคราะห์สถาปัตยกรรมสำคัญสามแบบ—VGG , GoogLeNet (Inception) และ ResNet—เพื่อเข้าใจว่าแต่ละสถาปัตยกรรมได้แก้ไขประเด็นต่างๆ ที่เกี่ยวข้องกับการขยายขนาดอย่างไร ซึ่งเป็นพื้นฐานสำคัญสำหรับความเข้าใจโมเดลอย่างแม่นยำในบทเรียนต่อไป

1. ความเรียบง่ายทางโครงสร้าง: VGG

VGG ได้แนะนำแนวทางการเพิ่มความลึกโดยใช้ขนาดเคอร์เนลที่เล็กและสม่ำเสมออย่างมาก (โดยเฉพาะ ฟิลเตอร์เชิงพีชคณิต 3x3 ที่ซ้อนกัน) ถึงแม้ว่าจะใช้ทรัพยากรในการคำนวณสูง แต่ความสม่ำเสมอทางโครงสร้างของมันได้พิสูจน์ว่าความลึกที่แท้จริง ซึ่งเกิดจากการเปลี่ยนแปลงสถาปัตยกรรมน้อยที่สุด เป็นปัจจัยหลักที่ทำให้ประสิทธิภาพดีขึ้น และยืนยันความสำคัญของสนามรับรู้ที่เล็ก

2. ประสิทธิภาพการคำนวณ: GoogLeNet (Inception)

GoogLeNet ตอบโต้ต้นทุนการคำนวณสูงของ VGG โดยให้ความสำคัญกับประสิทธิภาพและการดึงลักษณะเฉพาะหลายระดับ นวัตกรรมหลักคือ โมดูล Inception ซึ่งดำเนินการคำนวณเชิงพีชคณิตแบบขนาน (1x1, 3x3, 5x5) และการรวมกลุ่ม อย่างสำคัญ คือ มันใช้ การคำนวณเชิงพีชคณิต 1x1 เป็น จุดแคบ เพื่อลดจำนวนพารามิเตอร์และซับซ้อนของการคำนวณอย่างมาก ก่อนการดำเนินการที่มีต้นทุนสูง

ความท้าทายด้านเทคนิคหลัก

การเรียนรู้แบบคงที่: ResNet

ResNet ได้แก้ปัญหาการเสื่อมสภาพโดยนำการจับคู่แบบเอกลักษณ์ (การเชื่อมข้าม) มาใช้ ซึ่งเป็นทางลัดไม่ตามลำดับที่ทำให้เครือข่ายสามารถเรียนรู้ฟังก์ชันผลต่าง $F(x)$ แทนการจับคู่โดยตรง $H(x)$ ได้ ซึ่งทำให้มั่นใจว่าการเพิ่มชั้นมากขึ้นจะเพียงแค่ปรับปรุงหรือคงไว้ซึ่งประสิทธิภาพ ทำให้เสถียรภาพในการปรับแต่งดีขึ้นอย่างมาก

Diagram showing a ResNet skip connection architecture

คำถามที่ 1

สถาปัตยกรรมใดเน้นความสม่ำเสมอทางโครงสร้างโดยใช้ฟิลเตอร์ 3x3 อย่างมากเพื่อเพิ่มความลึก?

AlexNet

VGG

GoogLeNet

ResNet

คำถามที่ 2

การคำนวณเชิงพีชคณิต 1x1 ถูกใช้หลักในโมดูล Inception เพื่อวัตถุประสงค์หลักอะไร?

เพิ่มความละเอียดของแผนที่ลักษณะ

การกระตุ้นแบบไม่เป็นเชิงเส้น

ลดมิติ (จุดแคบ)

การสนใจพื้นที่

ความท้าทายสำคัญ: ความชันของเกรเดียนต์หายไป

วิธีการแก้ปัญหาด้านวิศวกรรมเพื่อการปรับแต่ง

อธิบายว่าการจับคู่แบบเอกลักษณ์ของ ResNet แก้ไขปัญหาความชันของเกรเดียนต์หายไปอย่างไร นอกเหนือจากเทคนิคเช่น การเริ่มต้นพารามิเตอร์ที่ดีขึ้น หรือ การปรับปกติแบบแบตช์

คำถามที่ 1

อธิบายกลไกที่ทำให้การเชื่อมข้าม (skip connection) ช่วยคงเสถียรภาพของกระแสเกรเดียนต์ระหว่างการส่งกลับข้อมูล (backpropagation)

คำตอบ:
การเชื่อมข้ามเพิ่มพจน์เอกลักษณ์ ($+x$) เข้าไปในผลลัพธ์ ทำให้เกิดพจน์เพิ่มเติมในเส้นทางอนุพันธ์ ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$) พจน์นี้ทำให้มีเส้นทางโดยตรงสำหรับสัญญาณเกรเดียนต์ไหลกลับไปข้างหน้า รับประกันว่าพารามิเตอร์ด้านบนจะได้รับสัญญาณเกรเดียนต์ที่ไม่ใช่ศูนย์และใช้งานได้ ไม่ว่าจะเล็กเพียงใดก็ตามที่เกิดขึ้นผ่านฟังก์ชันผลต่าง $F(x)$